一种基于Simhash的文本快速去重算法

一种基于Simhash的文本快速去重算法

作者:师大云端图书馆 时间:2020-12-27 分类:参考文献 喜欢:1717
师大云端图书馆

【摘要】在万维网中,大多数的网页都是重复的,然而,这些重复的网页对于搜索引擎返回的搜索结果是冗余的,搜索结果大多数不能体现用户查询意图。如果能将这些冗余的搜索结果去重,并实现返回结果按照重复率最大的网页进行排序显示给用户,无疑是一种可以满足用户查询需求的方式,那么,网页去重亟需解决的是使用什么样的技术手段判断网页内容是重复的最重要,如何能够去除相同或者相似的网页可以提高检索效率、降低存储开销。实际搜索中,搜索引擎返回数据会给用户提供很多相同的查询记录,但是如果返回重复的搜索结果是不科学的,因为大多数返回结果存在相似度极高的情况,甚至就被检索到的是同一个网页,当爬虫抓取网页的同时可以判断下其网址是否在已经下载的列表中,如果该网址的前半部分是相同的,可以认为它们可能是重复性的网页,这些重复的网页直接就不用下载,但是,在网址不相同的情况下,也可能网页内容是重复的,这种情况下的网页也不必出现的结果也中,那么,一个精锐的问题就是:很多重复的网页到底选哪一个作为返回结果呢?提到文本相似性计算,首先要想到的应该是向量空间模型VSM(VectorSpaceModel),这种方法存在的问题是:需要对网页两两比较相似度,无法扩展到海量网页的处理。传统的判断网页相似度的经典方法是“向量夹角余弦”,其主要思想是一篇网页中出现词的词频构成一个二维向量,然后计算网页之间对应的向量夹角余弦,但是,尤其一篇网页中含有大量的特征词,导致生成的二维向量的维度特别的高,这样一来使得计算的代价太大乃至于超出了预计的时间、空间复杂程度,那么对于大型的搜索引擎处理上万亿级别的网页请求是不可接受的。于是,Simhash算法诞生了,其主要思想是“降维”,将高维的特征向量映射成一个唯一“Simhash”值标识,所以比较网页唯一“指纹码”标识来确定的网页的是否重复。本文主要方法是一种基于Simhash的文本快速去方重法,一篇网页提取出网页内容后,必须经过基本的预处理,比如:(中文的,去除停留词、中文分词处理、英文的,去除停留词、词根还原),最后会得到一个向量,实验结果表明,本文提出的方法的实验结果良好。
【作者】王源;
【导师】李颖;
【作者基本信息】吉林大学,软件工程,2014,硕士
【关键词】Simhash;文本去重;特征向量;海明距离;Hash;

【参考文献】
[1]皇甫欢欢.中国光伏产业贸易结构研究[D].内蒙古大学,区域经济学,2014,硕士.
[2]刘江山.虚拟装配中自动路径规划的研究与实现[D].杭州电子科技大学,计算机应用技术,2013,硕士.
[3]赵丹阳.商标权与外观设计专利权的竞合研究[D].沈阳师范大学,法律,2014,硕士.
[4]杨桂娟.可控关节阻尼下混联式数控机床动态性能的研究[D].东北大学,机械设计及理论,2010,硕士.
[5]滕牧.石墨烯基材料在超级电容器中的应用[J].电子元件与材料,2014,09:11-13.
[6]岑慧虹.试析中国南方油画山水画派的文化自觉[D].湖南师范大学,美术学,2014,硕士.
[7]刘泉兴,翟凤芹,于鹏.青钢4号高炉高利用系数操作实践[J].炼铁.2003(06)
[8]彭亮.移动Ad hoc网络连接拓扑特征的仿真研究[D].东北大学,计算机系统结构,2010,硕士.
[9]韩永闯.极小极大问题的束方法算法[D].辽宁师范大学,运筹学与控制论,2012,硕士.
[10]崔怡.基于BPR的计量管理信息系统研究[D].西北工业大学,机械电子工程,2004,硕士.
[11]关磊.氮气氛直流电弧放电制备新型碳纳米材料[D].天津大学,2010.
[12]宋海岩,林雪,柏晓雯,张翠英,肖冬光.面包酵母麦芽糖酶的异源表达及产酶条件优化[J].酿酒科技.
[13]黄超.面向车联网的电控发动机故障诊断本体的应用研究[D].广东工业大学,机械工程(专业学位),2014,硕士.
[14]彭程.我国上市公司内部控制信息披露现状分析[D].山东财经大学,会计(专业学位),2014,硕士.
[15]宁振.USP22通过Wnt/β-catenin信号通路调节胰腺导管腺癌中FoxM1表达以及对上皮间质转化的调控机制研究[D].大连医科大学,外科学,2014,博士.
[16]张冰战.插电式混合动力电动汽车能量管理策略研究[D].合肥工业大学,2011.
[17]王蓉.文明城市创建过程中的政府行政职能研究[D].湖南师范大学,行政管理,2014,硕士.
[18]寇惠武.IGCC气化系统仿真[D].华北电力大学(北京),热能工程,2004,硕士.
[19]朱玲妹.论机动车交通事故民事侵权的无过失责任[D].中国政法大学,民商法学,2002,硕士.
[20]王东保.三类生态模型解的渐近性[D].陕西师范大学,应用数学,2004,硕士.
[21]李明.X-DSP一级数据Cache的设计与实现[D].国防科学技术大学,软件工程,2013,硕士.
[22]齐敏友,杨钧杰,周斌,潘定一,孙娴.熊果酸对糖尿病小鼠肾病的保护作用及机制研究[J].中国应用生理学杂志,2014,05:445-448.
[23]黄喜斌,陆世康.地声监测及识别[J].宇航计测技术.1991(05)
[24]覃小明.社会养老保险个人账户基金投资管理研究[D].广西师范大学,社会保障,2013,硕士.
[25]王欣.基于非物质文化数据选取的CA_Markov模型精度改进研究[D].河北师范大学,地图学与地理信息系统,2013,硕士.
[26]田伟.东海中部椒江口海域与北部湾北仑河口海域大型底栖动物群落结构的比较研究[D].华东师范大学,动物学,2013,硕士.
[27]杨晓辉.纳米结构TiO_2的制备、组装机理及光催化性能的研究[D].河北师范大学,无机化学,2004,硕士.
[28]程现伟.金融消费者的法律界定研究[D].西南政法大学,经济法(专业学位),2012,硕士.
[29]李庆俊.电炉炼钢过程计算机控制[J].冶金自动化,2000,01:28-30+45.
[30]黄亚君.电信企业市场营销再造研究[D].南京理工大学,2005.
[31]计群.自转运黏附素Apa1功能区与猪肺组织互作蛋白的筛选与序列分析[D].吉林大学,预防兽医学,2013,硕士.
[32]刘博.河北省沧州市普通高中与省级示范高中体育教学现状对比研究[D].首都体育学院,体育教学,2013,硕士.
[33]窦浩容.超宽带探地雷达设计[D].西安工业大学,电子与通信工程,2014,硕士.
[34]柯春松.基于三维CAD/CAE/MSS技术的大型工件超长平面铣钻专用机床的仿真分析与研究[D].广西大学,机械制造及其自动化,2004,硕士.
[35]宋灿立,蒋烨平,王以林,李志,王立莉,何珂,陈曦,马旭村,薛其坤.拓扑绝缘体Bi_2Se_3薄膜中Fe原子掺杂的STM研究[A].中国材料研究学会.2011中国材料研讨会论文摘要集[C].中国材料研究学会:,2011:1.
[36]虞梦娜,杜祝祝,林进义,解令海,黄维.萘酰亚胺基有机纳米片的二维生长和纳米复合[A].中国化学会.中国化学会第29届学术年会摘要集——第33分会:纳米材料合成与组装[C].中国化学会:,2014:1.
[37]刘镭.农业产业化中的土地流转问题与对策分析[D].华中师范大学,政治学理论,2013,硕士.
[38]曹志军.荧光(反射)光谱电化学和电化学石英晶体微天平新方法及其初步应用[D].湖南师范大学,有机化学,2004,硕士.
[39]李唐军.160Gb/s光时分复用通信系统关键技术研究[D].北京交通大学,2008.
[40]梁建设,王巍贺.论高校基层组织之政治功能[J].人力资源管理,2014,08:207-209.
[41]蒲丛丛.静电纺纳米纤维气流加捻成纱的机理与实验[D].江南大学,纺织工程,2014,博士.
[42]孙蕾蕾.黑曲霉对含钾岩石风化过程中相关基因的表达调控[D].南京师范大学,微生物学,2012,硕士.
[43]沈甜.“厂字形”架式对酿酒葡萄光合作用和果实品质的影响[D].宁夏大学,园艺(专业学位),2014,硕士.
[44]黄飞宇.铜渣氯浸渣中有价元素的回收利用[D].兰州理工大学,有色金属冶金,2014,硕士.
[45]张振平.斜向和多向不规则波作用于直立堤上波浪力的概率分布和频域特性[D].大连理工大学,港口、海岸及近海工程,2004,硕士.
[46]王晨.内蒙古地区高职院校公共体育课课程设置的现状分析及对策研究[D].首都体育学院,体育教学,2013,硕士.
[47]包凤莲.三少民族文化在中职语文课堂教学中的有效渗透[D].内蒙古师范大学,学科教学(专业学位),2012,硕士.
[48]郭秀杰.基于Kinect的人流量统计系统研究[D].重庆大学,仪器科学与技术,2014,硕士.
[49]章敏.HepG2细胞中SelS基因沉默对内质网硒蛋白mRNA表达的影响及脱靶效应研究[D].华中科技大学,无机化学,2013,硕士.
[50]崔祥芬.基于空间分布的铅污染健康风险评价与区划方法探讨及实例研究[D].北京中医药大学,社会医学与卫生事业管理,2013,硕士.

相关推荐
更多